Descargamos la base de datos desde dropbox con la siguiente url: https://www.dropbox.com/sh/u0g3g378xfdyxot/AACN77EAFN1rjNkPemkX-PWZa?dl=0
Hacemos un docker pull a la imagen de hadoop de sequenceiq con el comando: docker pull sequenceiq/hadoop-docker:2.7.1.
La url del github es la siguiente: https://github.com/sequenceiq/hadoop-docker
Corremos la imagen de hadoop que bajamos y generamos un volumen mediante el siguiente comando: docker run -it -v /Users/jpdebotton/Documents/2_2018/MGE/Tareas/Tarea_2:/home/data sequenceiq/hadoop-docker:2.7.1 /etc/bootstrap.sh -bash
Primero nos situamos donde se encuentran los archivos binarios de HDFS con el comando: cd $HADOOP_PREFIX y enseguida podemos crear el directorio utilizando el comando bin/hdfs dfs -mkdir -p /home/data/raw/ecobici/year=2017/sem=1/
Verificamos que está vacío mediante el comando bin/hdfs dfs -ls /home/data/raw/ecobici/year=2017/sem=1/
Verificamos directorio vacío en HDFS
Copiamos los datos de ecobice desde nuestro volumen hacia el HDFS con el comando: bin/hdfs dfs -copyFromLocal /home/data/ecobici_2017_sem1.csv /home/data/raw/ecobici/year=2017/sem=1/
Copiamos desde local al HDFS
Mediante el comando bin/hdfs dfs -ls /home/data/raw/ecobici/year=2017/sem=1/
Verificamos directorio tenga nuestro archivo en HDFS
e imprimimos las primeras diez filas bin/hdfs dfs -cat /home/data/raw/ecobici/year=2017/sem=1/ecobici_2017_sem1.csv | head -10
Imprimimos las primeras 10 líneas de nuestro archivo en HDFS
Utilizamos el comando jps
Verificamos Hadoop y YARN estén levantados
Utilizamos el comando bin/hdfs dfsadmin -report y vemos que se ha utilizado el 4.12% del HDFS
Verificamos el % de utilización del DFS